DeePKS+ABACUS:构建高精度第一性原理计算与机器学习势函数的桥梁
近些年来,机器学习势函数的发展极大推动了分子模拟领域的研究,使得针对大体系的高精度性质预测成为可能。然而,机器学习势函数的训练首先需要生成大量的第一性原理计算数据,对于精度要求很高的场景(如Quantum Monte-Carlo、杂化密度泛函等),生成这些数据会耗费极大甚至难以负担的计算资源。DeePKS泛函模型的研发能够有效解决这一计算瓶颈问题,构建第一性原理计算与机器学习势函数之间的桥梁,显著提升动力学模拟在规模、精度等方面的天花板。
近日,北京科学智能研究院(AI for Science Institute, 以下简称AISI)研究员李文菲、欧琪等人和合作者在arXiv上预发表了名为《DeePKS+ABACUS as a Bridge between Expensive Quantum Mechanical Models and Machine Learning Potentials》的文章[1],文章基于ABACUS→DeePKS-kit→DeePMD-kit的纯开源框架验证了DeePKS模型桥联第一性原理数据及机器学习势函数的可行性。
项目背景
机器学习势函数在材料模拟等领域得到了广泛应用,并取得了许多成果。但制约此类应用的一大瓶颈是,在势函数的训练过程中,需要生成大量高精度的第一性原理计算数据,而这些方法所需的计算资源往往极为昂贵,不仅会带来高昂的成本,也不利于项目的快速验证与迭代。在一些应用中,或许会由于体系过大或是数据量要求过大等原因,而无法使用高精度的第一性原理方法,从而限制了机器学习势函数的精度和应用范围。
为了解决这个问题,我们亟需一种方法,可以通过较低的成本来生成高精度的数据。
DeePKS方法最初提出于2020年[2],旨在结合低精度DFT泛函与神经网络修正项,通过较低的计算成本,模拟高精度第一性原理方法的计算结果。DeePKS通过机器学习对于低精度的DFT泛函进行优化,利用神经网络修正项去学习baseline泛函(低精度、低成本)与目标第一性原理方法(高精度、高成本)计算得出的能量与力的差值。其中,修正项带来的额外计算成本与低精度DFT泛函相当,并远低于高精度的第一性原理方法。
此外,DeePKS中的神经网络修正项采取了局域的形式,只需考虑原子周围的电子结构信息,这使得DeePKS拥有很强的泛化能力,其训练所需的数据集大小也远小于机器学习势函数的训练,这将极大地压缩生产成本。因此,DeePKS能够在第一性原理计算与机器学习势函数之间构建一座桥梁,降低了高精度数据的生产成本,这将极大地有利于推动机器学习势函数的研究与开发,并扩展机器学习势函数的应用场景。
项目介绍
针对周期性体系的DeePKS泛函模型训练的整体流程如下左图所示,其中所有第一性原理自洽场计算均在适合周期性边界条件的DFT软件 ABACUS 中完成。首先,选定baseline泛函(通常为廉价的GGA泛函,如PBE)和相关的数值原子轨道,计算该泛函给出的能量和力并基于密度矩阵的投影生成描述子。其次,将baseline泛函给出的能量、力、描述子以及目标结果(通常为昂贵泛函的能量和力,如SCAN0)输入到DeePKS-kit中进行神经网络模型训练。训练好的模型将以泛函修正项的形式返回到ABACUS中,参与新的哈密顿量的构建及自洽场计算。重复该过程直至DeePKS模型给出的能量和力达到收敛,此时的DeePKS模型便可应用于后在DPGen中进行的势函数训练及DeePMD-kit进行的分子动力学模拟等。整个流程所引用到的程序目前已实现在ABACUS的数值原子轨道基组程序上并全部开源,目前正在大范围测试中。成熟方案将基于 ABACUS 2.2 版本开发,并在后续版本中正式发布。
值得注意的是,DeePKS模型的所需的训练集大小要远小于DeePMD的训练集。上右图给出了64个水分子的训练曲线,训练标签为SCAN0的能量和力。可以看到,DeePKS模型仅需不足200帧的训练数据便可超越DeePMD1000帧数据的训练精度,同时具备更好的泛化能力。带入到分子模拟场景中,原本需要生产上千个高精度数据的工作量将由一百个左右的高精度计算以及DeePKS模型计算替代,预计能够节省一个数量级的时间成本。
案例分享
凝聚态水的动力学模拟
我们首先以纯水为例测试了DeePKS模型应用于DeePMD势函数训练及动力学模拟的效果。首先,我们以现有的64个水分子体系的SCAN0能量和力为标签,训练了基于PBE的DeePKS模型。然后将此模型用于DeePMD势函数的训练。训练好的势函数用来进行512个水分子体系的动力学模拟。可以看到,在相同的模拟条件下,DeePKS-DeePMD模拟完美复现了此前SCAN0-DeePMD模拟给出的结构性质,且与SCAN0-AIMD的结果高度吻合。
氯化钠的水溶液的动力学模拟
与上述流程类似,对于纯水及不同浓度氯化钠溶液的混合体系,我们以SCAN给出的能量和力为标签训练了基于PBE的DeePKS模型并应用于DeePMD动力学模拟。结构性质同样与SCAN-DeePMD的结果高度吻合。下图以1:62浓度的氯化钠水溶液为例展示了不同方法给出的径向分布函数:
未来发展
目前我们已经针对特定周期性体系(水、氯化钠水溶液)验证了DeePKS作为桥梁连接昂贵第一性原理数据及机器学习势函数的可行性。未来我们将致力于提出具有一定普适性的DeePKS泛函模型,能够被应用到某一类体系中,如电解液体系。电解液体系的性质难以通过纯泛函准确描述,然而杂化泛函计算耗时非常久,所以尚未被广泛用于电解液体系的计算。DeePKS模型的训练将给杂化泛函精度的电解液体系动力学模拟带来希望。此外,ABACUS-DeePKS现有流程尚未完全自动化,结合如 dflow 工作流框架实现高度自动化的训练将是推广大规模广泛应用的先决条件。
如何参与
如果有特定的泛函模型需求,可以以合作的方式与我们一同开展工作。感兴趣参与ABACUS-DeePKS开发的小伙伴可以直接通过GitHub与我们取得联系。
GitHub地址:
ABACUS:https://github.com/deepmodeling/abacus-develop
DeePKS-kit:https://github.com/deepmodeling/deepks-kit
结语
尽管高性能计算技术在飞速发展,计算资源的限制依然客观存在。ABACUS-DeePKS模型的出现建立了经典动力学模拟与第一性原理计算之间的桥梁,将给大体系动力学模拟带来新的可能性。这种可能性不仅体现在从慢到快的量变上,更体现在从无到有的质变上——此前受限于计算资源而无法模拟的物质结构性质将能够被深入探索。开源社区模式给ABACUS-DeePKS的发展提供了土壤,而致力于突破现有边界、探索未知的小伙伴将源源不断给DeePKS注入新的养分,这是我们共同的憧憬。模拟不设限,探索无止境。
参考资料
关于AISI
北京科学智能研究院(AISI)成立于2021年9月,由鄂维南院士领衔,致力于将人工智能技术与科学研究相结合,加速不同科学领域的发展和突破,推动科学研究范式的革新,建设引领世界的“AI for Science”基础设施体系。
我们的研究人员来自国内外顶尖高校、科研机构和科技企业,共同聚焦物理建模、数值算法、人工智能、高性能计算等交叉领域的核心问题。
我们致力于创造思想碰撞的学术环境,鼓励自由探索和跨界合作,共同探索人工智能与科学研究结合的新可能。
加入我们
AI for Science Institute(AISI) 招人啦|未来已来 欢迎关注
- End -
(如需转载图文请与公众号后台联系)
-------------------------------
推荐阅读